Úvod

Vizualizace dat vždy hrála a neustále hraje významnou roli ve vědě. Je to jednoduchý a jeden z nejlepších způsobů pochopení dat. Poskytuje jasnou představu o konfiguraci dat, odhaluje skryte struktury v datech a shrnuje informace. Proces vizualizaci je nedílnou součásti mnoha lékařských analýz a téměř všechny přírodní vědy využívají grafického zobrazení dat k vizualizaci a komunikaci svých výsledků. Dlouhou tradici prezentace dat se vyznačuje i ekonomika. Sbírané a analyzované po dobu mnoha let data se v současné době převádějí do grafické formy. Masivní příliv dat a jejich dostupnost vedli k novým metodám a novým přístupům. Kombinace programovacích dovedností, matematických a statistických znalostí a odborných znalostí týkajících se obsahu přijala název “Data Science”. Objevily se pozice takzvaných “information designers”, které vyvíjí vlastní softwary pro vizualizaci dat, zakládají poradenské firmy, pořádají globální workshopy nebo vytvářejí blogy s tisíci registrovanými uživateli. [@datavis_rahlf] Přes všechny výhody vizualizace, jedná se pouze o nástroj datové analýzy, obecně dostupný každému. Nesprávné či nevhodné použití tohoto nástrojů vede k tomu, že existují grafy, které se považují za moc barevné a rušivý, postrádající smysl až zavádějící. Z tohoto důvodů se obracíme na takzvané zásady vizualizace. (?)

\(\dots\) popsat zásady vizualizace, její zařazení do datové analýzy, moderní způsoby vizualizace (používané baličky v R, interaktivní grafy). Aplikace.

Teoretická část

1 Vizualizace dat

1.1 Historie vizualizace dat

Před 17. stoletím jediné co by se dalo klasifikovat jako vizualizaci dat byly mapy pro navigaci a průzkum, ale také diagramy, geometrická schémata a tabulky pozic hvězd a jiných nebeských těles. Postupný vývoj statistické teorie a růst zájmu o data na konci 18. století vedly k inovacím a expanzi nových grafických forem. Kartografové se pokoušeli zaznamenat vice, než pouhou geografickou polohu na mapě a objevili se první pokusy o tematické mapování geologických, ekonomických a medicínských dat.

Wiliam Playfair (1759-1823) je obecně znám jako průkopník v oblasti vizualizace dat a je považován za vynálezce několika typů grafů. Například liniový a sloupcový grafy a grafy časových řád byly popsány v jeho práci z roku 1786 1. Později popsal i koláčový graf ve své práci v roce 1801. Obrázek ukazuje příklad jeho kreativní kombinace různých vizualizačních technik (kruhy, koláče, linie), pomocí které se snažil porovnat daňovou zátěž mezi Británii a dalšími zeměmi. Na tomto grafu také ukázal možnost použíti více měřítek pro různé ukazatele (v grafu populace a daně).

\label{fig0} Kombinace různých vuzuálních techník, Playfair 1801

Kombinace různých vuzuálních techník, Playfair 1801

V polovině 19. století byly vytvořeny všechny podmínky pro rychlý růst vizualizace. V důsledku rostoucí významnosti číselných informací pro sociální plánovaní, industrializaci, obchod a dopravu, byli zřízeny oficiální statistické úřady po celé Evropě. Vývoj statistické teorie, iniciovaný Gaussem a Laplacem, měl odezvu ve společností a poskytl prostředky ke zpracování velkého množství dat. Pro vizualizaci se stalo dat období 1850-1900 “Zlatý věkem”, s jedinečnou krásou a velkým množstvím inovací. S těmito inovacemi je hlavně spojené jméno Charlese Josepha Minarda (1781-1870). Například, Minardem bylo zavedeno použití koláčových grafů s výsečemi na mapách (obrázek ), kde velikost koláčového grafu ukazuje sumu za oblast neboli každý grafický region na mapě a výseče reprezentují dílčí součty za jednotlivé kategorie. Dále se také zabýval znázorněním geografických pohybu a dopravy lidí, zboží, importu a exportu úměrně jejich velikostí.  Tento  typ vizualizace  se nazývá

, viz obrázek . Jednou z nejslavnějších jeho práci je zobrazení postupných ztrát mužů francouzské armády během Napoleonského tažení na Moskvu v letech 1812-1813 (obrázek ). Je považovaná za nejlepší informativní vizualizací. I přestože v tomto grafu je celkem 6 proměnných (množství, lokace ve dvou rozměrech, postup armády, teplota, datum a skupiny), podařilo vše zobrazit tak, aniž by graf byl přeplněný a matoucí.

Začátek 20. století je občas nazýván “moderním temným věkem” vizualizace. V letech 1900-1950 bylo jen málo grafických inovací. Nadšení pro vizualizací, které charakterizovalo 19. století bylo nahrazeno formálními (z velké části statistickými) grafy a modely z oblasti sociologie. Hlavní zájem byl o přesná čísla, odhady parametrů, směrodatné odchylky. Vizualizace byli považované za pouhé hezké obrázky bez schopnosti podat přesná data. [@dataviz_history] Ve své práci z roku 1919 Willord C. Brinton [1880-1957] kritizoval a vysvětloval chyby takovýchto grafů. Například koláčový graf rozdělení rodinných příjmů (od 900$ do 1000$) na obrázku . Tento graf je příkladem nepovedené vizualizace: oko preferenčně soudí dle velikostí obrázků a ne dle uhlů výsečí. Obrázek uprostřed znázorňuje druhy utracení: je to zábavný způsob vizualizace, avšak nelze přesně určit velikost brašen, ani je porovnat mezi sebou. Další obrázek by měl čtenáři sdělit informaci, že prodej praček za poslední tří roky vzrostl sedmkrát. Z obrázku není patrný poměr sedmi ku jedné ani přesné roky kdy bylo provedeno porovnání údajů. Dále Brinton ve své práci upozorňoval, že neúspěšná prezentace dat může vést k chybným závěrům a také zmiňoval potřebu jakéhosi standardu, souhrnu “gramatických pravidel pro grafický jazyk”. [@brinton_1919]

\label{fig04} Ukázky vizualizaci ze začatku 20. století, Brinton 1919

Ukázky vizualizaci ze začatku 20. století, Brinton 1919

Ke “znovuzrození” vizualizace došlo v polovině šedesátých let 20. století, po napsaní Johnem W. Tukey [1915-2000] článku , ve kterém vyzývá společnost k uznání analýzy dat jako samostatného oboru statistiky odlišného od matematické statistiky. [@tukey1962] Brzy poté začal Tukey s vývojem široké řady nových a efektivních grafů pod společným tématem “průzkumové analýzy dat” (popsány v jeho práci z roku 1977, viz o tématu kapitola 3). [@tukey1977] Mezi těmito novými grafy jsou například číslicový histogram (popsaný v kapitole 2.4.3), boxplot nebo krabicový graf (popsaný v kapitole 2.3.2) a další. Mnoho z nich je aktivně používáno ve statistické praxi a implementováno do většiny softwarů. [@dataviz_history]

Od roku 1975 se vyvíjí statistické výpočetní systémy a s nimi i nové metody analýzy a vizualizace dat. V tomto období vizualizace začala být vnímána jako vlastní odvětví a to především díky Williamu S. Clevelandu a Edwardu Tufte, kteří položili věděcké základy tohoto odvětví. Tufte vyvinul a popularizoval terminologii a základní principy grafické integrity. Cleveland se zabýval studii grafického vnímání, kognitivních procesů, které lidi používají k pochopení grafů, a rozvíjel teorii o správném provedení vizualizaci. [@cleveland_priceonomics] Důsledek jejich práce se promítá i do současné doby kvalitní, interaktivní a dynamickou vizualizaci. [@dataviz_history]

1.2 Zásady vizualizace dat

1.2.2 Edward Tufte

Za revoluční průlom se považuje kniha Edwarda Tufte The Visual Display of Quantitative Information z roku 1983, v kombinaci s dvěmi následně publikovanými pracemi Envisioning Information z roku 1990 a Visual Explanations z roku 1997, patří mezi nejznámější publikace na téma vizualizace dat. Právě v těcho pubikacích Tufte originálním způsobem definuje “standard” vizualizace. [@datavis_rahlf] Ideální způsob vizualizace dle Tufte je stručný, elegantní a informativní. Příkladem ideálního grafu je pro Tufte graf postupu Napoleonských vojsk v letech 1812-13, vytvořený Minardem (viz obrázek ). Tufte říká, že grafická elegance se často nachází v jednoduchosti návrhu a komplexnosti dat. [@tufte1990] Tafte formuluje základní principy vizualizace jako grafickou dokonalost a grafickou integritu.

  • Grafická dokonalost - grafika by měla:
    • být o datech a během jejich předvedení by nemělo dojít ke zkreslení
    • vyvolávat otázky o datech, ne o metodologii a technikách vizualizace
    • ukazovat velké množství dat v malém prostoru
    • předvádět velké datasety souvisle a logicky promyšleně
    • sloužit rozumnému a jasnému cíli (popisu, průzkumu, \(\dots\))
    • být jednotná se statistickým nebo slovním popisem datasetu
  • Grafická integrita neboli grafická celistvost a jednoznačnost
    • reprezentace čísel, zobrazené v grafu by měli být přímo úměrné číselným veličinám datasetu
    • jasné, detailní a svědomité označení v grafech by mělo potlačit zkreslení, nejasnost a dvojznačnost, popisky jsou důležitá
    • ukazovat variaci dat, nikoliv designu
    • v případě časových řad, představujících peníze, používat obecně známé jednotky
    • počet rozměrů představených v grafu by neměl přesahovat počet proměnných datasetu
    • reprezentace by neměla zahrnovat neúmyslný kontext

Ve spojení s těmito principy byly zavedeny Edwardem Tuftem následující terminy:

  • Lie factor je definován jako poměr velikosti efektu zobrazeného v grafu oproti velikosti efektu v datech. Pokud se rovná jedničce, považuji se reprezentované hodnoty za přesné. Pokud je faktor větší než 1.05 či menší než 0.95, indikuje se podstatné zkreslení, přesahující míru drobných nepřesnosti vyskytujících se při vykreslováni grafů. Tafte ve své práci uvádí jako jeden z příkladů graf na obrázku . Tento graf zobrazující zmenšující se procento lékařů věnujících se výhradně rodinné praxi má lie factor odpovídající hodnotě 2.8, tedy skutečný pokles je značně nadhodnocen.
  • Data ink ratio - poměr, který vyhodnocuje hustotu grafu a obsah informací. Dal by se vyjádřit vzorcem \[\textit{Data ink ratio} = \cfrac{\textit{data-ink}}{\textit{celkový inkoust použitý v datech}},\] kde \(\textit{data-ink}\) je nezbytné jádro grafu a smazání jakékoliv jeho části znamená ztrátu informaci. Tento vztah také odpovídá podílu grafického inkoustu požitého k vykreslení nepodstatných informací. Dalo by se to také vyjádřit vztahem \(1 - \textit{podíl grafiky, která může být vymazána bez ztráty informací}\). Tafte doporučuje tento faktor maximalizovat v rozumných mezích, nejlépe se vyhnout těžkým mřížkovým liniím na pozadí (dokonce i horizontálním referenčním liniím). V příkladu na obrázku jsou zobrazené dvě verze stejného grafu. Horní má hodnotu data ink ratio kolem 0.7, dolní graf ale neobsahuje informaci o datech, pouze nápomocné čáry, proto data ink ratio se rovná nule.
  • Chartjunk - se vztahuje ke všem vizuálním elementům, které neslouží ke komunikaci informací zobrazených v grafu nebo odvádějí pozornost od těchto informací. [@tufte1983]

1.2.1 Wiliam S. Cleveland

Kromě práci Edwarda Tufte velký vliv měli i publikace Wiliama S. Clevelanda. Cleveland se svým kolegou Robertem McGillem publikovali v roce 1984 článek o grafickém vnímání. [@cleveland_mcgill] Prováděli studie na rozdíl ve vnímání sloupcových grafů (pozice a obecné měřítko), koláčových grafů (úhel), skládaných sloupcových grafů (plocha), barevných a stínovaných map (saturace barev a stínování) a další. [@cleveland_priceonomics] Ve svých pracích Visualizing data z roku 1993 a The Elements of Graphing Data z roku 1994 Cleveland se zabýval principy vizualizace, grafickými metody a techniky, vykreslením tři a více proměnných. Některé z jeho principů se schodují s principy vymezené Tuftem, avšak práce Clevelande v této oblasti předcházela práci Tufte. Zásady a principy dle Clevelande by se se dali shrnout do čtyř hlavních kategorií: jasný vzhled, jasná srozumitelnost, měřítka, obecná strategie. [@cleveland1994]

  • Jasný vzhled
    • Data by měla vyčnívat, vykreslení nadbytečných prvků (neboli chartjunk dle Tufte) by se mělo vyhnout.
    • Ke zobrazení dat by se měli používat výrazné grafické prvky.
    • Pro každou proměnnou by měla být použita dvojice os, prostor v takto vytvořeným obdélníku je určen k vykreslení grafu, úsečky na osách by měli směrovat mimo oblast grafu.
    • Prostor grafu by neměl být přeplněný (legenda mimo oblast grafu atd.).
    • S počtem úseček na osách by se nemělo přehánět.
    • Pokud je vhodné, referenční linie mohou být použity, avšak nesmějí zasahovat do dat.
    • Popisky by neměli zasahovat do kvantitativních dat a nesmějí znepřehledňovat graf.
    • Značky a klíče by měli vyskytovat mimo oblast grafu (případně. v legendě), totéž se týká poznámek a nadpisů, které můžou být také umístěny do textu.
    • Překrývající se data sety či symboly musí být visuálně snadně rozpoznatelné.
    • Jasnost obrazu musí být zachována při reprodukci i snížení kvality a zmenšení.

Následující příklad na obrázku je zobrazením množství izotopu xenonu \({}^{133}\mbox{Xe}\) ve vzduchu (\(pCi.m^{-3}\)) v Albany, New York koncem března a začátkem dubna roku 1979. Spodní část grafu ukazuje časově zprůměrované odhady úniků z reaktoru při havárie elektrárny Three Mile Island, na detailu jsou zobrazeny hodnoty vzorků vzduchu (měření plynů) a současné průměrné hodnoty pro okolní vzduch. Zkratka LT znamená less than (méně než). Všechno, včetně popisků os, klíčů a popisků bylo umístěno do oblasti grafu, není dodržená žádná ze zásad Clevelande. Výsledkem je matoucí graf, který je obtížné číst. Stejný graf na obrázku byl vytvořen Clevelandem s dodržením veškerých zásad: odstranění zbytečných objektů a detailu z oblasti grafu, rozlišné datasety se zobrazují ve vlastních panelech, oprava popisků, popisujících měření.

  • Jasná srozumitelnost
    • Hlavní závěry by měli být obsaženy v grafické formě. Legenda a nadpisy by měli být srozumitelné a vyčerpávající.
    • Při vykreslení logaritmu proměnné, hodnoty na ose by měly odpovídat popisu osy.
    • Grafy by měli být zkorigovány.
    • Mělo by se usilovat o přehlednost (viz “jasný vzhled”).
  • Měřitka
    • Volit rozsah os tak, aby obsahoval, případně téměř obsahoval, rozsah dat.
    • Volit takové měřítko, aby data vyplňovala co největší prostor.
    • Občas je užitečný mít pro proměnnou dvě osy pro rozdílná měřítka.
    • Volit vhodné měřítko pokud data jsou porovnávány na více panelech.
    • Osy grafu nemusejí vždy nutně zahrnovat nulu pro ukázku rozsahu.
    • Použit logaritmická měřítka, když je důležitý pochopit procentní změny nebo multiplikativní faktory.
    • Použit přerušené měřítko pouze v případě potřeby. Logaritmování může zbavit této potřeby.
  • Obecná strategie
    • Velké množství kvantitativní informace může být vměstnáno do relativně malých oblastí.
    • Tvorba grafů by měla být opakující se experimentální činností.
    • Data můžou být vykreslené dva a vícekrát pokud je to potřeba.
    • Užitečné grafy vyžadují pečlivou a detailní práci.

1.3 Grammar of graphics

The Grammar of Graphics* publikovana Lelandem Wilkinsonem v roce 2005, detailně popisuje prvky, které tvořejí základ všech statistických grafů. Tato publikace popisuje statistickou grafiku jako mapovani [@wickham_ggplot] a měla extrémně velký vliv na myšlení o grafech. V tomto kontextu grammar znamená “pravidla pro umělectví a vědu”. Práce specifikuje pravidla jak matematicky tak i esteticky. Dříve se soustředilo na estetiku statického kontentu. Dinamicke grafy a vědecky založená vizualitace kontrastne požaduje sofistikovaný design pro umožnění přiblížení, propojování, kartačování. The Grammar of Gpraphics se jednoduše přizpůsobuje tomuto přisstupu.